The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
translated by 谷歌翻译
Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset.
translated by 谷歌翻译
现在,可以使用最先进的神经语言模型通过零射门提示来解决临时语言任务,而无需进行监督培训。近年来,这种方法已广受欢迎,研究人员证明了提示在特定的NLP任务上实现强烈准确的提示。但是,找到新任务的提示需要实验。具有不同措辞选择的不同提示模板会导致明显的准确性差异。提示允许用户尝试及时变化,可视化及时性能,并迭代优化提示。我们开发了一个工作流程,该工作流程允许用户首先使用少量数据专注于模型反馈,然后再进入大型数据制度,该数据制度允许使用任务的定量度量来实现有希望的提示的经验基础。然后,该工具可以轻松部署新创建的临时模型。我们使用多种现实世界用例演示了Fackide(http://prompt.vizhub.ai)和我们的工作流程的实用性。
translated by 谷歌翻译
尽管已经提出了几种方法来实现领域泛化的艰巨任务,但了解使这项任务挑战的原因很少受到关注。在这里,我们提出semanticdg(语义域概括):具有15个具有相同几何形状,场景布局和摄像机参数与流行的3D Scannet数据集的基准标准,但具有照明,材料和视图点的控制域移动。使用此基准,我们独立研究了这些语义转变对概括的影响。视觉识别模型很容易推广到新颖的照明,但与材料和观点的分配变化斗争。受到人类视野的启发,我们假设场景上下文可以作为桥梁,以帮助模型跨越材料和观点域的转移,并提出上下文感知的视觉变压器,以及对材料和观点变化的对比损失,以解决这些域的变化。我们的方法(称为CDCNET)的表现优于现有域的概括方法,超过18%。作为关键的基准,我们还进行心理物理学实验,发现人类在照明,材料和观点上同样概括地概括了。此处介绍的基准和计算模型有助于了解与跨域的概括相关的挑战,并提供了向语义分布转移推断的初始步骤。我们在补充中包括所有数据和源代码。
translated by 谷歌翻译
基础学习者和集合中的样本(镜头)几乎没有弹出分类器极大地影响了模型性能。当表现不满意时,通常很难理解基本原因并进行改进。为了解决这个问题,我们提出了一种视觉分析方法FSLDIAGNOTOR。考虑到一组基础学习者和一系列射击的样本,我们考虑了两个问题:1)找到一个很好的基础学习者,可以很好地预测样本集; 2)用更多代表性的镜头代替低质量的镜头,以充分代表样品集。我们将两个问题提出为稀疏子集选择,并开发两种选择算法,分别推荐适当的学习者和射击。将矩阵可视化和散点图组合在一起,以解释上下文中推荐的学习者和镜头,并促进用户调整它们。根据调整,该算法更新了建议结果,以进行另一轮改进。进行了两项案例研究,以证明FSLDIAGNOTOR有助于有效地构建一些分类器,并分别将精度提高12%和21%。
translated by 谷歌翻译
现有的深度学习真正的denoising方法需要大量嘈杂的清洁图像对进行监督。尽管如此,捕获真正的嘈杂清洁数据集是一个不可接受的昂贵且繁琐的程序。为了减轻这个问题,这项工作研究了如何产生现实的嘈杂图像。首先,我们制定了一个简单而合理的噪声模型,该模型将每个真实嘈杂像素视为随机变量。该模型将嘈杂的图像生成问题分为两个子问题:图像域的比对和噪声域对齐。随后,我们提出了一个新颖的框架,即像素级噪声吸引的生成对抗网络(PNGAN)。 PNGAN使用预先训练的真实DeNoiser将伪造和真实的噪声图像映射到几乎无噪声的解决方案空间中,以执行图像域的对齐。同时,PNGAN建立了一个像素级对抗训练,以进行噪声域的比对。此外,为了获得更好的噪声拟合,我们提出了一个有效的体系结构简单的多尺度网络(SMNET)作为发电机。定性验证表明,就强度和分布而言,PNGAN产生的噪声与真实噪声高度相似。定量实验表明,一系列经过生成的嘈杂图像训练的Denoisers在四个真正的Denoising基准测试中获得了最新的(SOTA)结果。代码,预训练模型和结果的一部分可在https://github.com/caiyuanhao1998/pngan上获得比较。
translated by 谷歌翻译
我们展示了Pytorch Connectomics(Pytc),一个开源深度学习框架,用于体积显微镜图像的语义和实例分割,基于Pytorch。我们展示了Pytc在Connectomics领域的有效性,其旨在在纳米分辨率下进行线粒体,突触像Mitochondria这样的细胞器,以了解动物脑中的神经元通信,代谢和发育。 Pytc是一个可伸缩且灵活的工具箱,可以在不同的尺度上处理数据集,并支持多任务和半监督学习,以更好地利用昂贵的专家注释和培训期间的大量未标记数据。通过在不编码的情况下改变配置选项并且适用于不同组织和成像方式的其他2D和3D分段任务,可以在Pytc中容易地实现这些功能。定量方面,我们的框架在Cremi挑战中实现了突触裂缝分割的最佳性能(以相对6.1美元\%$)和线粒体和神经元核细胞分割的竞争性能。代码和教程在https://connectomics.readthedocs.io上公开提供。
translated by 谷歌翻译
视频实例分段旨在检测视频中的段和跟踪对象。电流接近将图像级分段算法扩展到时间域。然而,这导致时间上不一致的掩模。在这项工作中,我们由于性能瓶颈而导致的掩模质量。通过此激励,我们提出了一种视频实例分段方法,可以减轻由于缺失的检测而存在的问题。由于这不能简单地使用空间信息来解决,因此我们使用帧间关节来利用时间上下文。这允许我们的网络使用来自相邻帧的框预测来重新拍摄缺失的对象,从而克服丢失的检测。我们的方法通过在YouTube-Vis基准上实现35.1%的地图,显着优于先前最先进的算法。此外,我们的方法完全在线,不需要未来的框架。我们的代码在https://github.com/anirudh-chakravarthy/objprop上公开提供。
translated by 谷歌翻译
我们介绍了MedMnist V2,这是标准化生物医学图像的大规模MNIST样数据集集合,包括12个用于2D的数据集和3D的6个数据集。所有图像均已预处理成28x28(2D)或28x28x28(3d)的小尺寸,并带有相应的分类标签,因此用户不需要背景知识。涵盖生物医学图像中的主要数据模式,MedMnist V2旨在对具有各种数据集量表(从100到100,000)和多种任务(二进制/多级,序数回归和多标签)进行轻巧的2D和3D图像进行分类。最终的数据集由708,069个2D图像和10,214个3D图像组成,可以支持生物医学图像分析,计算机视觉和机器学习中的许多研究 /教育用途。我们在MedMnist V2上基准了几种基线方法,包括2D / 3D神经网络和开源 /商用汽车工具。数据和代码可在https://medmnist.com/上公开获取。
translated by 谷歌翻译
从显微镜图像体积分段3D细胞核对于生物学和临床分析至关重要,从而实现了细胞表达模式和细胞谱系的研究。然而,神经元核的当前数据集通常包含小于$ 10 ^ {\ text {-} 3} \ mm ^ 3 $的卷,每卷少于500美元,无法揭示大脑区域的复杂性并限制神经元的调查结构。在本文中,我们推动了向子立方毫米秤的任务向前推进了,并用两个完全注释的卷策划了NUCMM数据集:1美元\ mm ^ $电子显微镜(EM)含有几乎整个斑马鱼大脑,大约170,000左右核;还有0.25美元\ mm ^ 3 $ micro-ct(uct)卷,其中鼠标视觉皮层的一部分,大约7,000个核。具有两种成像模态,体积大小和实例数量显着增加,我们在外观和密度中发现了神经元核的大量多样性,对该领域引入了新的挑战。我们还进行统计分析以定量地说明这些挑战。为了解决挑战,我们提出了一种新颖的混合表示学习模型,该模型结合了前景掩模,轮廓图和签名距离变换来生产高质量的3D面罩。 NUCMM数据集上的基准比较表明,我们所提出的方法显着优于最先进的核细胞分割方法。代码和数据可在https://connectomics-bazaar.github.io/proj/nucmm/index.html中获得。
translated by 谷歌翻译